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摘要 : 


【 目的 】 从 异 构 的 电子 病历 数据 中 发 现 疾病 危险 因素 ， 为 数据 挖掘 与 知识 发 现 提供 借鉴 。[ 方法 】 选取 集 


各 种 结构 为 一 身 的 临床 电子 病历 数据 ,利用 决策 树 、 逻 辑 回归 和 神经 网 络 三 种 数据 挖掘 算法 分 别 建立 疾病 危险 
因素 预测 模型 ， 对 三 种 预测 模型 进行 比较 分 析 和 统计 学 评价 。[ 结果 ] 决策 树 预测 模型 在 查 准 率 、 召 回 率 上 高 于 


逻辑 回归 和 神经 网 络 , 在 总 体 性 能 上 决策 树 最 优 , 但 三 者 差别 不 大 。[ 局 限 ] 未 对 电子 病历 属性 进行 优化 选择 。 


【 结论 ] 决策 树 在 危险 因素 的 发 现 与 疾病 的 预测 方面 优 于 逻辑 回归 和 神经 网 络 。 研 究 中 建立 基于 数据 挖掘 算法 的 
异 构 数据 源 知识 发 现 框架 ， 为 今后 领域 知识 发 现 和 知识 库 构 建 以 及 数据 挖掘 算法 的 选择 提供 一 定 借鉴 和 参考 。 
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1 3 引 


随 着 大 数据 (Big Data) 概 念 的 提出 及 大 数据 时 代 
的 到 来 ,情报 学 研究 范畴 已 经 明显 呈现 出 大 数据 的 典 
型 特征 趾 。 大 数据 具有 的 数据 量 大 、 处 理 速 度 快 、 数 
据 类 型 繁多 和 价值 密度 低 这 “4V” 特 征 ,为 情报 学 提出 
新 挑战 , 尤其 大 数据 种 类 繁多 、 结 构 多 样 、 质 量 参 差 
不 齐 , 情报 学 领域 信息 加 工 需要 向 数据 清洗 、 规 范 集 
成 和 整合 不 断 拓展 。 美 国 管理 学 家 罗素 : 艾 可 构建 了 
DIKW(Data-Information-Knowledge-Wisdom) 体系 己 3， 
Zeleny 区 分 了 DIKW 体系 中 的 各 个 元 素 外 , CIO 时 代 网 
对 其 内 容 与 价值 进行 分 析 钻 ,， 王 日 芬 认为 文献 计量 法 
和 内 容 分 析 法 是 实现 DIKW 转换 的 关键 算法 四 .DIKW 
体系 为 情报 学 提供 了 巨大 的 发 展 空间 ,同时 也 指明 情 
报 学 研究 的 目的 和 内 涵 , 情报 学 需要 在 数据 清洗 的 基 
础 上 , 通过 自然 语言 处 理 、 概 念 映射 等 情报 学 方法 进 
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行 数据 标准 化 、 规 范 化 ,再 利用 内 容 分 析 、 科 学 计量 
分 析 、 社 会 网 络 分 析 等 多 样 化 数据 分 析 算 法 ,通过 数 
据 挖掘 提取 内 在 的 隐 性 知识 ,实现 知识 发 现 ， 为 用 户 
提供 让 入 式 的 个 性 化 精准 化 服务 。 

目前 医疗 数据 是 最 为 复杂 的 数据 ,最 能 体现 大 数 
据 种 类 多 、 来 源 多 、 用 途 多 的 特征 , 本 研究 选取 临床 
电子 病历 (Electronic Medical Record, EMR) 数 据 , 在 情 
报 学 知识 发 现 框 架 指导 下 ,利用 决策 树 、 逻 辑 回 归 和 
神经 网 络 等 数据 挖 气 算法 分 别 建立 疾病 的 危险 因素 预 
测 模型 ， 并 对 三 种 预测 模型 进行 评价 。 本 研究 规范 情 
报 学 方法 在 医学 领域 知识 发 现 的 流程 , 探索 从 复杂 的 
数据 中 找到 知识 之 间 有 效 关联 及 知识 发 现 的 最 佳 算 
法 ,为 今后 数据 处 理 和 知识 发 现 提 供 一 定 借鉴 和 参考 ; 
另 一 方面 , 可 以 为 临床 医生 的 诊断 提供 数据 支持 ， 为 
疾病 防 控 人 员 提 供 可 视 化 依据 ,对 媳 高 症 “ 预 防 -诊断 - 
治疗 -预后 ”全 过 程 提供 科研 数据 支持 ; 数据 挖掘 方法 
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现代 图 书 情报 技术 


应 用 于 疾病 的 危险 因素 研究 , 可 以 加 强 对 医疗 大 数据 
言 息 的 开发 与 利用 。 


2 基于 数据 挖掘 算法 的 异 构 数据 源 知识 
发 现 框 架 
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学 领域 逻辑 框架 内 的 知识 发 现 研 究 中 ,在 知识 处 理 流 
程 中 关注 数据 规范 ,对 不 同 来 源 的 数据 在 异 质 领域 本 
体 融 合 基础 上 实现 数据 语义 规范 化 , 进而 深入 探讨 主 
题 模型 、 关 联 数据 分 析 及 机 器 学 习 等 方法 , 是 实现 高 
效 领域 知识 发 现 的 一 条 必 经 之 路 ,其 流程 主要 有 4 步 ， 
如 图 1 所 示 : 
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图 1 基于 数据 挖掘 算法 的 异 构 数 据 源 知 识 发 现 框架 


(1) 利用 数据 库 技 术 完成 数据 采集 。 涉 及 多 个 数 
据 来 源 ， 如 医生 工作 站 的 诊断 报告 、 护 士 工作 站 的 患 
者 社会 特征 数据 、 影 像 室 所 保存 的 图 像 数据 、 实 验 室 
所 保存 的 实验 室 检 查 结构 化 数据 和 手术 室 的 用 药 及 检 
测 数据 报告 等 , 不 同 来 源 的 数据 呈现 多 种 结构 , 将 不 
同 结构 的 数据 进行 结构 化 , 存放 在 数据 库 中 。 

(2) 数据 清洗 。 完 成 数据 去 标识 化 , 数据 类 型 的 规 
范 化 , 缺 省 值 处 理 ， 自 然 语 言 处 理 中 和 语义 标注 。 其 关 
键 技术 为 自然 语言 处 理 和 语义 标注 。 

(3) 预测 模型 构建 。 运用 机 器 学 习 外 中 的 监督 学 习 
方法 WM 进行 疾病 危险 因素 的 预测 模型 构建 。 从 大 量 
多 维度 的 数据 中 挖掘 出 有 价值 的 情报 , 分 析 数 据 背 后 
的 知识 。 数 据 挖掘 技术 包括 许多 算法 ,按照 训练 的 数 
据 有 无 标签 ， 分 为 监督 学 习 算法 、 无 监督 学 习 算法 和 
特殊 算法 ,本 研究 应 用 开源 软件 Ri 建立 数据 挖掘 模 
型 。 在 R 中 通过 运用 决策 树 、 逻 辑 回归 和 神经 网 络 三 
种 数据 挖掘 算法 对 相关 数据 分 别 进 行 处 理 分 析 , 包括 
去 掉 缺 省 值 、 发 现 异 常 点 、 对 数据 进行 唯一 化 处 理 和 
对 相关 的 类 目 进行 关联 分 析 等 ， 最 终 建立 合理 有 效 的 
数据 挖 气 模 型 ,利用 R 软 件 的 相关 函数 进行 模型 可 视 


化 展示 ,并 通过 模型 对 数据 进行 预测 ， 从 而 得 到 有 效 
的 处 理 结果 。 

(4) 模型 评价 。 对 预测 模型 利用 统计 学 方法 进行 
评价 , 评价 指标 包括 查 准 率 、 召 回 率 、 正 确 率 和 下 值 。 


3 ”疾病 危险 因素 预测 模型 构建 


3.1 数据 来 源 

研究 数据 来 自 长 春 市 某 三 级 甲 等 医院 的 电子 病 
历 , 包含 2014 年 1 月 1 日 至 2015 年 4 月 30 日 就 诊 于 
该 所 医院 的 31 443 名 孕妇 的 就 诊 信息 ， 由 信息 中 心 人 
员 进 行 数据 抽取 建立 Excel 数据 库 ( 见 图 2), 数据 包括 : 
病人 的 基本 信息 (科室 、 年 龄 、 登 记号 、 性 别 、 民 族 、 
职业 、 文 化 程度 、 婚 姻 状 况 、 收 入 ); 生活 和 工作 习惯 
信息 (吸烟 情况 、 饮 酒 情况 、 工 作 压 力 及 精神 压力 ); 病 
史 信 息 (既往 史 、 家 族 史 ); 常规 体检 数据 (身高 、 体 重 ) 
和 实验 室 检查 数据 (收缩 压 、 和 舒张 压 、 总 胆固醇 、 甘 油 
三 醋 、 低 密度 胆固醇 、 高 密度 胆固醇 、 空 腹 血 糖 、 血 
红 和 蛋白 ); 诊断 结果 。 每 名 患者 都 严格 按照 医学 诊断 标 
准 进行 诊断 , 并 且 按 照 电子 病历 的 格式 , 在 既往 史 、 家 
族 史 和 诊断 结果 中 用 自然 语言 形式 进行 详细 描述 。 
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应 用 认 


进行 二 分 类 判别 ,对 既往 史 、 家 族 史 以 标点 符号 为 分 


隅 符 进 行 数 据 提取 ， 对 分 离 出 的 疾病 名 称 数 据 以 及 出 
入 院 诊 断 中 的 疾病 名 称 进行 概念 映射 ,映射 到 统一 医 
学 语言 系统 (Unified Medical Language System, UMLS) 


年 龄 | 登记 号 | 性 别 | 民族 | 职业 ”| 文化 程度 | 婚姻 | 吸烟 | 饮酒 | 既往 史 身高 cm | 体重 Kg 
35 | 295405 | 女 | 汉族 = 大 学 或 以 用 已 婚 | 无 无 | 否认 肝炎 、 结 树 160 80 
29 | 245642 | 玄 | 汉族 无 | 大 学 或 以 tH 已 婚 | 无 无 | 否认 其 他 重大 桨 ”156 78 
29 | 245642 | 妇 | 汉族 | 无 已 婚 | 无 | 无 | 患者 否认 重大 效 156 77 
32 | 157760 | 友 | 汉族 无 | 高 中 /中 专 | 已 婚 | 无 无 | 既往 健康 ， 无 一 167 82 
31 | 186432 | 女 | 汉族 | 职员 ”| 高 中 /中 考 | 已 婚 | 无 | 无 | 患者 否认 重大 天 153 | 59.5 
34 | 122794 | 妈 | 汉族 无 _ | 高 中 /中 考 | 已 婚 | 无 无 | 既往 健康 ， 无 让”151 386 
28 | 94276 | 克 | 汉族 | 技术 干部 己 婚 | 无 无 | 患者 否认 其 他 一 160 68 
29 | 36740 | 妈 | 汉族 大 学 或 以 4H 已 婚 | 无 无 | 健康， 否认 结 树 。 155 了 4 
34 | 44392 | 文 | 汉族 | 无 业 已 婚 | 无 | 无 | 患者 四" 异 位 旭 160 68 
33 | 114062 | 交 | 汉族 无 | 大 学 或 以 H 已 婚 | 无 无 | 否认 重大 疾病 民 155 70 
33 | 146330 | 克 | 汉族 | 职员 | 大 学 或 以 H 已 婚 | 无 无 | 否认 肝炎 、 结 树 。 168 73 
43 | 293197 | 妇 | 汉族 无 婚 | 无 无 | 良好 160 52 
32 | 1019 | 友 | 汉族 高 中 /中 考 | 已 婚 | 无 无 _| 否 认 肝 炎 结 核 曾 “160 81 
30 | 42243 | 妇 | 汉族 | 无 婚 | 无 | 无 | 既往 健康 ， 无 骨 158 60 
32 | 106048 | 女 | 汉族 | 职员 “| 大 学 或 以 日 已 婚 | 无 无 | 健康 。 否 认 肝 鹿 ”168 79 
28 | 225887 | 妇 | 汉族 | 职员 | 高 中 /中 考 | 已 婚 | 无 无 “| 患者 否认 其 他 一 158 72 
28 | 120532 | 女 | 汉族 无 | 初中 己 婚 | 无 | 无 | 患者 否认 其 他 局 160 70 
28 | 4929 | 妆 | 汉族 | 无 业 | 高 中 /中 考 | 已 婚 | 无 | 无 | 患者 否认 其 他 恒 158 62 


图 2 原始 研究 数据 (部 分 ) 

3.2 ”数据 清洗 

(1) 提取 有 效 属 性 列 

由 于 数据 中 有 些 属性 对 于 预测 模型 无 影响 或 影 
响 极 小 ,加 入 分 析 可 能 会 形成 噪音 (如 入 院 日 期 、 登 
记号 等 )， 在 提取 有 效 属 性 列 阶 段 ， 将 噪声 属性 列 去 
掉 , 保留 有 意义 的 属性 列 。 人 研究 中 主要 采用 人 工 抽 
取 的 方式 进行 属性 列 提取 ， 加 大 提取 的 准确 性 和 有 
效 性 。 

(2) 自然 语言 处 理 

对 电子 病历 中 既往 史 、 家 族 史 和 和 人 院 诊断 、 出 院 
诊断 等 自然 语言 描述 的 非 结构 化 信息 进行 处 理 。 首 先 


下 的 国际 疾病 分 类 法 ICD10 中 , 方便 之 后 数据 挖掘 模 
型 对 数据 的 有 效 识 别 。 

(3) 文本 数据 数值 化 

在 数据 挖掘 模型 中 , 神经 网 络 只 能 处 理 数值 型 变 
量 ， 因 此 为 了 便于 数据 挖掘 模型 的 建立 , 在 本 阶段 将 
定性 数据 改 为 数值 型 变量 。 例 如 , 在 “婚姻 状况 ”属性 
列 中 , 设 “ 离 婚 ” 为 1, “已 婚 " 为 2“ 未婚" 为 3“ 丧偶 "为 
4 “其 他 "为 5 等 。 

(4) 缺 省 值 处 理 

由 于 电子 病历 记录 不 规范 , 存在 病人 记录 不 完整 
的 现象 , 这 些 病 人 记录 会 影响 最 终 模 型 的 建立 和 挖掘 ， 
但 由 于 这 些 缺 省 值 并 不 多 , 因此 使 用 R 软件 将 含有 这 
些 缺 省 值 的 数据 去 掉 ， 以 呈现 更 好 的 挖掘 效果 。 

通过 上 述 步骤 完成 基本 数据 准备 ,使 数据 呈现 可 
处 理 状态 , 也 使 数据 库 中 的 数据 可 以 更 加 清晰 简明 地 
表述 出 来 , 最终 得 到 29 901 条 数据 ， 如 图 3 所 示 : 


年 龄 | 婚姻 | 吸烟 | 饮酒 | 既往 史 | 家 族 史 | 身高 cm| 体重 Kg | 收缩 压 mmH 和 | 室 张 压 mmHg | 总 胆 国 醇 | 甘 油 三 酯 | 优 客 度 胆 国 醉 | 高 密度 胆 国 醉 | 空腹 血糖 | 血红 蛋白 | 编号 | 全 并 结果 | 
28 2 2 2 2 2 160 384 110 7T0 3,41 4.97 0. 88 0,97 10,99 | 83.00 | 30648 是 
45 2 1 2 2 1 160 65 110 70 6.15 1.85 3.98 1.80 5.06 |119.00 | 14172 否 
31 人 2 2 1 2 171 101 110 7T0 6,47 4d,22 4,07 1,56 5,63 |67.00 | 11280 否 
45 2 2 2 2 2 158 56 120 80 3,43 1.14 1.79 1,07 4.46 79.00 | 30615 否 
28 2 2 2 2 和 168 72 60 5,68 2.65 朱 . 嫩 1.60 4d.87 |133.00 | 18358 
34 2 2 2 1 2 160 61 0 60 8, 35 2.02 5,94 2,01 4.00 |109,00 | 1664 | 否 
29 2 2 2 2 2 168 65.5 110 80 6,00 1.08 2,.34 2,61 T.54 | .00 | 15500 否 
29 2 2 2 2 2 155 70 100 60 6,.88 3.25 3.93 2,30 3.95 |113.00 | 8015 否 
28 2 2 2 2 4 162 87 130 30 4.57 4.45 1.81 1.87 6.02 |76.00 | 26497 否 
39 2 2 2 1 155 55 120 7T0 5.66 0.69 .a 1.16 5.67 |79.00 | 18622 否 
27 2 4 2 2 2 152 61 110 70 6,77 名 后 3.55 2,20 4.57 | 85.00 8862 否 
25 2 3 2 2 2 165 ™4 120 80 4,.79 1.40 2.52 1,07 4d.90 |90.00 | 25259 否 
21 2 1 2 2 2 155 55 110 ?70 6.19 2.59 2.76 2.32 4.93 |105.00 | 13787 否 
30 2 2 2 2 2 160 80 100 nn 6.86 5.30 2 3,03 6.55 |120.00 | 8170 否 
43 2 4 2 2 2 158 56 120 80 4.92 4.06 2.17 1.04 5.31 87.00 | 24470 否 
27 2 2 2 2 2 160 76 100 70 8.09 $.95 4.03 1.97 四 34 |133.00 | 2277 否 
31 2 2 2 1 2 155 61 110 7T0 下 98 3.25 2.48 1,85 4,.70 | 97.00 | 24057 否 

图 3 数据 处 理 后 的 研究 数据 (部 分 ) 


3.3 ”妊娠 高 血压 综合 征 的 危险 因素 预测 模型 构建 
针对 挖掘 妊娠 高 血压 综合 征 (Pregnancy-induced 
Hypertension, 简称 奸 高 症 ) 危 险 因 素来 进行 上 述 算 法 
的 实证 研究 。 在 完成 上 述 数 据 准备 处 理 阶 段 的 工作 后 ， 
为 了 研究 的 一 致 性 和 严谨 性 ,三 种 数据 挖掘 算法 都 应 
使 用 相同 的 训练 集 和 测试 集 , 将 数据 按照 7 : 3 的 比例 
分 为 训练 集 数据 和 测试 集 数据 ,选取 70%( 即 22 010 条 
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数据 ) 的 数据 作为 训练 集 ， 建立 数据 挖掘 模型 以 及 挖掘 
妊 高 症 危 险 因 素 ; 剩余 30%( 即 9 433 条 数据 ) 的 数据 作 
为 测试 集 ， 用 来 测试 算法 性 能 。 随 后 在 R 中 对 训练 集 
和 测试 集 数据 的 缺 省 值 进行 删除 ,最 终结 果 为 : 训练 
集 数据 20 940 条 , 测试 集 数据 8 961 条 。 

(1) 决策 树 模 型 

决策 树 作为 一 种 监督 学 习 方法 , 可 以 用 于 分 类 和 


预测 , 在 其 树 型 结构 中 , 每 个 节点 和 分 支 都 具有 一 定 
的 含义 : 决策 树 通过 不 断 细 化 的 分 支 ( 即 分 类 标准 )， 
将 错综复杂 的 数据 分 为 者 干 类 型 ， 用 叶子 节点 对 其 进 
行 表 示 ， 因 此 决策 树 可 以 对 数据 进行 直观 明确 的 分 
类 。 本 研究 采用 ID3 算法 构建 决策 树 模 型 。 要 构造 尽 
可 能 小 的 决策 树 ， 关键 在 于 选择 合适 的 产生 分 支 的 属 
性 。 而 ID3 算法 的 核心 正 是 通过 采用 信息 增益 的 方式 
来 选择 能 够 最 好 地 将 样本 分 类 的 属性 5。 

设 E= DIxD, x…xD, 是 n 维 有 穷 向 量 空间 ,其 
中 Dij 是 有 穷 离散 符 号 集 ,E 中 的 元 素 e=<vi，va ，…， 
v > 为 例子 , 其 中 vj E Di ,j=1,2,3，…,n。 设 SI，s，， 
…, sm 是 王 的 mm 个 例子 集 。 假 设 向 量 空间 E 中 的 这 mm 
个 例子 集 的 大 小 为 Si , ID3 基于 以 下 两 个 假设 03]: 

(1) 在 向 量 空间 E 上 的 一 棵 正确 决策 树 对 任意 例 
子 的 分 类 概率 同 E 中 这 m 个 例子 的 概率 一 致 。 

(2) 一 棵 决策 树 能 对 一 个 例子 做 出 类 别 判断 所 需 
的 箭 为 : 


m 
Entropy(s1, 82,..., sm) =—2 ,pi log, (pi) (1) 
isl 


其 中 ，p; 用 s;/s 来 估算。 

如 果 以 属性 A 作为 决策 树 的 根 ,A 具有 v 个 值 , 它 将 
E 分 成 v 个 子 集 { El ，E,,…，E, }), 假设 Ei 中 含有 
Si G=1 2,…, m), 那么 子 集 Ei 所 需 的 期 望 信息 是 E(A)。 


V 
Entropy(A) = 一 > (slj +82j+***+Smj)/Sx Entropy(s1;, $2j,***, Smj) 
j= 


2) 


因此 ,以 属性 A 为 根 的 信息 增益 是 : 

Gain(A) = Entropy(A)(s1, s2,.……,s, ) — Entropy(A) G) 

ID3 选择 使 Gain(A) 最 大 的 属性 A* 作 为 根 节点 ， 对 
Ax 的 不 同 取 值 对 应 的 E 的 v 个 子 集 Ei 递归 调用 上 述 过 
程 生成 A* 的 子 节点 ， 从 而 生成 一 棵 树 。 
使 用 RR 软件 ,利用 rpart 函数 包 和 rpart.plot 函数 包 
对 危险 因素 进行 挖掘 ,将 训练 集中 有 关 最 终 媳 高 症 的 诊 
断 结果 ( 即 “ 是 ”与 “ 否 ”) 作 为 最 终 的 分 类 结果 ( 即 根 节点 ) 
将 患者 的 体检 属性 变量 作为 分 类 条 件 进行 分 析 , 将 影 
响 最 终 诊 断 的 危险 因素 及 其 数据 范围 用 决策 树 展现 出 
来 , 并 将 其 可 视 化 。 由 于 决策 树 分 文 太 多 , 过 于 复 困 ， 
容易 产生 过 拟 合 现象 , 对 预测 测试 集 数 据 丧 失意 义 ， 
此 利用 CP(Complexity Parameter) 即 复杂 度 参 数 进行 前 


枝 。CP 随 决 策 树 复杂 度 的 增加 而 减 小 ， 当 增加 一 个 节 
点 引起 的 分 类 精确 度 的 变化 量 小 于 决策 树 复 杂 度 变化 
量 的 CP 倍 时 , 须 剪 去 该 节点 。 一 般 选 择 错 判 率 最 小 值 
对 应 的 CP 值 来 修 树 。 在 CP 值 等 于 0.004 8 时 ， 获 得 既 
能 够 很 好 拟 合 训 练 集 数据 ， 又 能 很 好 预测 测试 集 数 据 
的 决策 树 ,而 且 对 于 危险 因素 来 说 , 在 最 终 得 到 的 决策 
树 中 , 强调 了 “收缩 压 ”"、“ 和 舒张 压 "、“ 空 腹 血 糖 * 和 “甘油 
三 酯 "这 四 个 属性 ,根据 决策 树 的 路 径 显 示 : 当 收 缩 压 
大 于 138 mmHg, 同时 舒张 压 大 于 92 mmHg、 甘油 三 酯 
大 于 1.7 mmol/L 时 , 是 主要 危险 因素 ; 而 当 收 缩 压 大 于 
138 mmHg, 但 舒张 压 小 于 92 mmHeg 时 , 若 空腹 血糖 小 
于 5 mmol 上 、 和 舒张 压 大 于 86 mmHg 且 甘 油 三 酯 大 于 
2.6 mmolL 时 ,也 是 患 妊 高 症 的 危险 因素 。 

(2) 逻辑 回归 模型 对 妊 高 症 危 险 因素 挖掘 

逻辑 回归 (Logistic Regression，LR) 模 型 中 最 常 使 
用 梯度 下 降 法 来 获得 代价 函数 的 最 小 值 ， 通 过 给 予 一 
定 的 优化 条 件 ,使 方法 得 到 更 好 的 分 类 界限 [ 1。 由 于 
逻辑 回归 模型 构造 简单 、 结 果 方 便 易 懂 ， 因 此 在 疾病 
防治 领域 有 着 广泛 的 应 用 ,是 数据 挖掘 方法 在 医学 领 
域 应 用 的 一 个 典型 方法 。 

设 P 为 某 事件 发 生 的 概率 , 取 值 范围 为 [0, 1], 1-P 
为 该 事件 不 发 生 的 概率 , 将 P/(1-P) 取 自 然 对 数 
In(P/(1-P))， 即 对 P 作 logit 转换 , 记 为 logitP， 则 logitP 
的 取 值 范围 为 (C-oo, +oo)。 以 P 为 因 变量 , 建立 线性 回归 
方程 i 


logitP=Q+BIxXi +…+ BmxXm (4) 
可 得 : 


exp(0. Bixi 下 Bmxm) 
1+ exp(0. + Bix1 中 BmxXm) 


该 模型 即 为 逻辑 回归 模型 ， 是 普通 多 元 线性 回归 
模型 的 推广 , 但 它 的 误差 项 服从 二 项 分 布 而 非 正 态 分 
布 ， 模 型 中 o 为 常数 ，B; G=1，…, m) 为 逻辑 回归 系数 。 

使 用 RR 软件, 利用 glm 函数 和 MASS 函数 包 对 危 
险 因素 进行 挖掘 。 由 于 逻辑 回归 模型 没有 参数 ， 因 此 
不 需要 对 参数 进行 调整 , 为 了 得 到 既 能 很 好 拟 合 训练 
集 ， 又 能 很 好 预测 测试 集 数据 的 模型 , 需要 选择 合适 
的 属性 ,此 属性 即 为 模型 挖掘 的 危险 因素 。 通 过 对 变 
量 进行 合理 选择 , 得 到 合理 的 逻辑 回归 模型 及 其 可 视 
化 图 谱 。 逻 辑 回 归 模 型 通过 8 次 费 舍 尔 得 分 迭代 ， 筛 


P= 


(5) 
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选 出 有 意义 的 属性 变量 为 "年龄 " “体重 Kg”、“ 收 缩 
压 mmHg”“ 舒 张 压 mmHg” 和 “空腹 血糖 ” 通过 这 5 
个 属性 变量 , 在 R 中 建立 针对 姓 高 症 诊断 的 最 合理 模 
型 ， 如果 将 这 5 个 属性 以 “Xi- 义 ;分别 表 示 , Y 为 患者 
最 终 是 否 患 病 的 结果 (Y 值 只 能 为 0 或 1), 则 笔者 提出 
的 最 终 逻 辑 回归 公式 可 以 表示 为 : 

立 = -25.45-0.05XI +0.03X, + 0.17X3 +0.01X4 -0.21X (6) 

根据 公式 (6) 进 行 计算 ,以 说 明 患 者 是 否 真正 患 有 
妊 高 症 。 通 过 重新 建立 逻辑 回归 模型 , 使 之 包含 “年 
龄 ”" “体重 Kg”、“ 收 缩 压 mmHg”、“ 和 舒张 于 mmHeg” 
和 “空腹 血糖 "等 5 个 属性 , 不 仅 建立 起 基于 训练 集 数 据 
的 逻辑 回归 模型 , 也 筛选 出 影响 姓 高 症 的 危险 因素 。 

(3) 神经 网 络 模 型 对 姓 高 症 危险 因素 挖掘 

神经 网 络 (Neural Network) 是 一 个 包含 输入 层 、 隐 
藏 层 和 输出 层 的 数据 挖掘 方法 , 神经 网 络 方法 的 内 在 
本 质 是 : 结果 与 输入 层 的 特征 值 无 关 , 是 与 隐藏 层 的 
方法 密切 相关 的 , 神经 网 络 模型 可 以 快速 地 学 习 任 意 
的 特征 项 。 数 据 挖掘 软件 中 通常 运用 反 向 传播 方法 使 
代价 函数 最 小 。 神 经 网 络 可 以 运用 于 分 类 和 回归 问题 ， 
具有 极 强 的 容错 性 和 和 鲁 棒 性 09。 

神经 网 络 中 每 个 神经 元 都 是 一 个 简单 的 计算 装 
置 , 其 特性 由 简单 的 数学 函数 所 描述 ,神经 元 i 接收 其 
他 神经 元 传递 来 的 输入 信息 ,根据 和 函数 neti 进行 加 
权 平 均 , 根据 传递 函数 f 产生 输出 信息 , 输出 信息 又 
按照 网 络 的 拓扑 结构 传递 到 下 一 个 神经 元 。 笔 者 应 用 
McClelland 等 于 1986 年 提出 的 函数 0 公式 如 下 : 


7 1 
= > wixj+Qi xf = 下 = 一 一 (7) 
j 


l+e ™t 


其 中 ,1 为 神经 元 i 的 输入 ;Xi 为 神经 元 i 的 输 
出 ; wi 为 神经 元 i, j 之 间 的 连接 权 ; Qi 为 神经 元 i 的 
届 置 。 

每 一 条 连接 弧 都 被 赋予 一 定 的 数值 表示 连接 弧 
的 连接 强度 。 正 的 权 值 表示 影响 的 增加 , 负 的 权 值 表 
示 影 响 的 减弱 。 在 前 向 网 络 中 ,神经 元 间 前 向 连接 ， 
同 层 神经 元 互 不 连接 , 信息 只 能 向 着 一 个 方向 传播 。 
前 向 网 络 的 连接 模式 用 权 值 向 量 W 表示 。 在 网 络 中 ， 
权 值 向 量 决定 着 网 络 如 何 对 环境 中 的 任意 输入 做 出 
有 反应。 同样， 网络 也 是 通过 不 断 调整 权 值 完成 整个 学 
习 过 程 。 
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应 用 认 


用 神经 网 络 挖掘 算法 对 训练 集 数据 进行 处 理 时 ， 
运用 RR 中 的 nnet 函数 包 和 mlbench 也 数 包 , 通过 不 断 
实验 , 改变 隐藏 层 数目 和 阔 值 , 不断 优化 神经 网 络 模 
型 ,最 后 得 到 一 个 含有 10 个 隐藏 层 ， 国 值 为 0.01 的 神 
经 网 络 模 型 。 

(4) 妊 高 证 危险 因素 挖掘 结果 

对 于 诊断 奸 高 症 来 说 , 危险 因素 起 着 至 关 重 要 的 
作用 , 在 本 文 的 研究 数据 中 , 一 共 包 含 16 个 属性 , 但 
并 不 是 全 部 属性 都 在 某 种 程度 上 导致 了 妊 高 症 的 发 
生 , 研究 中 通过 决策 树 、 逮 辑 回 归 和 神经 网 络 三 种 数 
据 挖 掘 模型 ， 找 到 真正 起 作用 的 危险 因素 ,具体 的 挖 
掘 结 果 如 表 1 所 示 : 

表 1 ， 姓 高 证 主要 危险 因素 挖掘 效果 对 比 


对 比 项 决策 树 逻辑 回归 ” ”神经 网 络 
是 否 可 看 出 挖 
所 的 危险 因素 下 和 
wn rin 收缩 压 、 舒 张 压 年龄、 体重 、 

向 表 居 4t  。 空 诈 血 糖 、 革 油 。 收 缩 压 、 每 张 不 、 无 
A 三 栈 空腹 血糖 

表现 危险 因 ”决策 树 路 径 Nn 无 ( 黑 盒 
素 的 方式 ” ( 带 有 具体 数值 ) 个 模型 ) 


从 表 1 可 以 看 出 , 在 挖掘 妊 高 证 危险 因素 方面 ， 
决策 树 能 提炼 出 危险 因素 的 属性 组 合 和 数值 ; 逻辑 回 
归 只 能 分 析 危 险 因 素 的 属性 ; 神经 网 络 则 无 法 获知 属 
性 和 数值 。 因 此 决策 树 在 妊 高 症 危 险 因 素 挖掘 中 直观 
性 最 好 ， 且 决策 树 运用 最 少 的 属性 就 可 以 判断 出 患者 
是 否 得 病 , 说 明 其 代表 性 也 最 强 。 通 过 这 些 危险 因素 
的 挖掘 ,可 以 对 临床 医生 的 诊断 起 到 辅助 作用 ,对 姓 
高 证 疾病 的 预防 和 预后 起 到 指导 作用 。 


4 模型 评价 


4.1 评价 指标 

大 数据 分 析 中 , 利用 上 述 三 种 数据 挖掘 模型 对 测 
试 集 数据 进行 预测 ， 以 四 格 表 为 数据 基础 , 运用 查 准 
率 (Precisiom)、 召 回 率 (Recal) 、 正 确 率 和 F 值 5 这 4 个 
旧 标 评价 数据 挖掘 算法 的 性 能 。 

各 个 指标 具体 的 含义 为 : 
TP 
TP+FP 


查 准 率 = (8) 


TP 


召回 率 = 9 
人 TP+FN 9 
正确 率 = IP+TN 6 
TP+TN+FP+FN 
上 值 -_2PR da 
P+R 


在 医学 领域 , TP(True Positive) 表 示 真 阳性 的 病 
例 数 ， 即 医生 诊断 的 结果 和 数据 挖掘 结果 都 是 妊 高 
症 的 病例 数 ; TN(True Negative) 是 真 阴性 ， 即 机 器 诊 
断 结 果 不 是 妊 高 症 而 且 医 生 诊断 也 不 是 的 病例 数 ; 
FN(False Negative) 是 假 阴 性 ， 即 机 器 诊断 结果 是 好 
高 症 , 但 是 医生 的 诊断 却 不 是 的 病例 数 ; FP(False 
Positive) 是 假 阳 性 ， 即 机 器 诊断 结果 不 是 媳 高 症 , 但 
是 医生 诊断 结果 却 是 奸 高 症 的 病例 数 ,P 是 查 准 率 , R 
是 召回 率 。 

查 准 率 越 高 ,说 明 算 法 的 敏感 性 越 高 ; 召回 率 越 
高 , 说 明 算 法 的 特异 性 越 好 ; 正确 率 越 高 ,说 明 算法 的 
精确 度 越 好 ; F 值 越 大 , 说 明 算 法 的 总 体 性 能 越 好 11。 
4.2 ”三 种 模型 预测 结果 

利用 建立 好 的 三 种 数据 挖掘 模型 和 处 理 好 的 测试 
集 数据 对 妊 高 症 患 病 与 否 进行 预测 ,利用 四 格 表 已 数 
据 分 别 计算 查 准 率 、 召 回 率 、 正 确 率 和 F 值 ， 并 对 三 
种 模型 进行 评价 ， 如 表 2- 表 4 所 示 : 
表 2 决策 树 模型 预测 妊 高 症 数量 结果 
决策 树 预 测 患 者 得 病 与 否 


患者 真实 诊断 


Se 让 
得 病 与 否 否 是 会 计 
否 8 608 45 8 653 
是 137 171 308 
痊 计 8 745 216 8 961 
表 3 逻辑 回归 模型 预测 妊 高 证 数量 结 
患者 真实 诊断 你 辑 回 归 预 测 患 者 得 病 与 否 计 
元 V 
得 病 与 否 否 二 本 
否 8 611 42 8 653 
是 168 140 308 
合计 8 779 182 8 961 
表 4 神经 网 络 模型 预测 妊 高 症 数 量 结果 
患者 真实 诊断 神经 网 络 预测 患者 得 病 与 否 a 
得 病 与 否 否 ye 
否 8 631 38 8 669 
是 162 130 292 
合计 8 793 168 8 961 
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4.3 不同 数据 挖掘 算法 性 能 对 比分 析 

通过 对 决策 树 、 人 逻辑 回 归 和 神经 网 络 三 种 算法 在 
R 中 运行 、 建 模 和 预测 数据 时 所 表现 的 不 同 特点 , 对 其 
在 TP、FP、FN、TN、 查 准 率 、 召 回 率 、 正 确 率 、F 
值 方面 进行 对 比 研究 ,验证 其 应 用 于 妊 高 症 时 的 性 能 ， 
为 算法 的 选择 提供 依据 ， 如 表 5 所 示 : 
表 5 三 种 数据 挖掘 算法 性 能 指标 对 比 


算法 TP FP FN TN 查 准 率 召回 率 正确 率 F 值 


决策 树 171 137 45 8 608 55.52% 79.71% 97.97% 0.65 
逻辑 回归 140 168 42 8611 45.45% 76.92% 97.66% 0.57 
神经 网 络 130 162 38 8631 44.52% 77.38% 97.77% 0.57 


通过 表 5 可 以 看 出 , 在 查 准 率 一 项 中 , 三 种 算法 
的 性 能 比较 为 : 决策 树 > 逻 辑 回归 > 神经 网 络 ， 这 也 是 
其 敏感 度 排名 ; 在 召回 率 一 项 中 , 性 能 比较 为 : 决策 
树 > 神经 网 络 > 逻辑 回归 ,这 也 是 其 特异 性 排名 ; 在 正 
确 率 一 项 中 , 性 能 比较 为 : 决策 树 > 神 经 网 络 > 逻辑 回 
归 , 这 也 是 其 精确 度 排名 ; 最 后 ,由 于 查 准 率 和 召回 
率 是 一 组 此 消 彼 长 的 评价 指标 , 单个 运用 不 能 总 体 评 
价 算法 的 性 能 ,因此 用 FF 值 对 算法 的 综合 性 能 进行 评 
价 , 结果 为 : 决策 树 > 逻 辑 回归 = 神经 网 络 。 综 合 以 上 
指标 可 以 看 出 , 决策 树 的 性 能 最 好 ,神经 网 络 的 性 能 
略 好 于 逻辑 回归 , 但 相差 不 大 ,整体 来 看 ， 三 种 监督 学 
习 算 法 的 性 能 都 非常 强 。 

4.4 结果 分 析 

从 上 述 挖掘 模型 的 建立 和 模型 评价 方面 进行 分 
析 ， 认 为 : 

(1) 在 疾病 危险 因素 研究 方面 , 决策 树 能 提炼 出 
危险 因素 的 属性 组 合 和 数值 ， 而 逻辑 回归 只 能 分 析 危 
依 因 素 的 属性 列 ,根据 公式 (6) 对 筛选 的 危险 因素 属性 
进行 计算 得 出 得 病 与 否 的 结论 ， 而 神经 网 络 由 于 其 黑 
盒 性 特征 无 法 提供 预测 危险 因素 的 可 能 性 ,因此 决策 
树 在 妊 高 症 危 险 因 素 控 据 中 直观 性 最 好 。 决 策 树 运 用 
最 少 的 属性 就 可 以 判断 出 患者 是 否 得 病 , 说 明 其 代表 
性 最 好 。 

(2) 预测 妊 高 症 发 病 方面 , 综合 各 指标 可 以 得 出 ， 
对 于 诊断 、 预 防 和 预后 妊 高 症 来 说 , 决策 树 的 性 能 最 
好 ,神经 网 络 次 之 ,而 逻辑 回归 最 差 ， 可 能 是 由 于 
逻辑 回归 的 二 分 类 性 能 和 神经 网 络 的 “ 黑 盒 性 ”特征 
所 致 。 
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(3) 决策 树 算法 运用 最 少 的 属性 即 可 得 到 最 优 模 
型 因此 是 适合 于 妊娠 高 血压 综合 征 危 险 因素 挖 掘 及 
最 终 疾病 诊断 的 最 优 算法 。 


5 结 语 


数据 挖 气 算 法 从 大 数据 中 挖 所 出 有 用 的 知识 以 加 
助 决策 , 已 成 为 国际 上 知识 发 现 领 域 最 前 沿 的 研究 方 
向 之 一 , 将 数据 挖掘 算法 与 自然 语言 处 理 、 概 念 映射 、 
本 体 论 等 理论 和 技术 结合 , 通过 数据 采集 、 数 据 清洗 、 
模型 建立 和 模型 评价 4 方面 所 建立 起 的 异 构 数 据 源 知 
识 发 现 框架 能 快速 实现 情报 的 收集 和 分 析 。 数 据 挖掘 
作为 一 个 可 从 繁杂 的 信息 中 进行 知识 发 现 的 工具 , 将 
不 再 局 限于 单纯 技术 层面 的 研究 , 而 是 越 来 越 多 与 其 
他 应 用 学 科 进 行 交 叉 融 合 , 因此 情报 人 员 应 该 误 入 到 
学 科 实 现 髋 入 式 学 科 服 务 , 同时 从 研究 中 还 发 现 , 不 
同 的 数据 挖掘 算法 对 于 不 同 的 知识 发 现 有 不 同 的 效 
果 , 应 该 具有 针对 性 进行 选择 ， 从 而 更 好 地 对 相关 领 
域 人 员 进 行 决策 支持 服务 。 


[1] 曾 建 勋 , 魏 来 . 大 数据 时 代 的 情报 学 变革 [. 情报 学 报 ， 
2015, 34(1): 37-44. (Zeng Jianxun, Wei Lai. The Changes of 


op 


Information Science in Big Data Era [J]. Journal of the China 
Society for Scientific and Technical Information, 2015, 34(1): 
37-44.) 

[2] Ackoff R L. From Data to Wisdom [J]. Journal of Applies 
Systems Analysis, 1980(16): 3-9. 

[3] Bellinger G, Castro D, Mills A. Data, 
Knowledge, and Wisdom [EB/OL]. [2015-11-24]. http:/www. 


Information, 


systems-thinking.org/dikw/dikw.htm. 


[4] Zeleny M. Human Systems Management: Integrating 
Knowledge, Management and Systems [M]. Singapore: World 
Scientific, 2005: 15-16. 

[5] “CIO 时 代 网 . DIKW: 数据 、 信 息 、 知 识 、 智 慧 的 金字 塔 层 
次 体系 [EB/OL]. [2014-11-24]. http: Wwww.ciotimes.com. 
(CIO Network Era. DIKW: Pyramid Hierarchy of Data, 


Information, Knowledge, Wisdom [EB/OL]. [2014-11-24]. 


http://www.ciotimes.com.) 

[6] 王 日 芬 . 文献 计量 法 与 内 容 分 析 法 综合 研究 的 方法 论 来 源 
与 依据 [J]. 情报 理论 与 实践 ，2009，32(2): 21-26. (Wang 
Yuefen. The Source and Basis of the Methodology of 


Synthetic Research with Bibliometric Method and Content 


现代 图 书 情报 技术 


[7] 


[8] 


[9] 


[11] 


[12] 


[13] 


[15] 


ChinaXiv 合 作 期 刊 


应 用 认 


Analysis Method [J]. 
Application, 2009, 32(2): 21-26.) 

王 丽 伟 ， 李 梅 ， 件 冬 梅 ， 等 . 一 种 面向 知识 服务 的 领域 知 
识 发 现 流程 及 实例 研究 [加 . 情报 学 报 ，2015，34(1): 45-52. 
(Wang Liwei, Li Mei, Mu Dongmei, et al. A Knowledge 


Information Studies: Theory & 


Service-oriented Domain Knowledge Discovery Process [J]. 
Journal of the China Society for Scientific and Technical 
Information, 2015, 34(1): 45-52.) 

徐 戈 , 王 厚 峰 . 自然 语言 处 理 中 主题 模型 的 发 展 [ 吕 .计算 
机 学 报 ，2011，34(8): 1423-1436. (Xu Ge, Wang Houfeng. 


The Development of Topic Models in Natural Language 
Processing [J]. Chinese Journal of Computers, 2011, 34(8): 
1423-1436.) 

何 清 ， 李 宁 ， 罗 文 娟 ,等 . 大 数据 下 的 机 器 学 习 算 法 综述 
[四 . 模式 识别 与 人 工 智 能 , 2014, 27(4): 327-336. (He Qing, 
Li Ning, Luo Wenjuan, et al. A Survey of Machine Learning 
Algorithms for Big Data [J]. PR&AL 2014, 27(4): 327-336.) 
赴 慧 丰 ， 谭 松 波 ， 程 学 旗 . 基于 监督 学 习 的 中 文 情感 分 类 
技术 比较 研究 [如 . 中 文 信息 学 报 , 2007, 21(6): 88-94，108. 
(Tang Huifeng, Tan Songbo, Cheng Xueqi. Research on 


Sentiment Classification of Chinese Reviews Based on 
Supervised Machine Learning Techniques [J]. Journal of 
Chinese Information Processing, 2007, 21(6): 88-94, 108.) 

侯 亚 君 . R 语言 在 数据 挖掘 中 的 运用 [加 晋城 职业 技术 学 
院 学 报 , 2014, 7(2): 63-65. (Hou Yajun. On the Application of 


R Language in Data Mining [J]. Journal of Jincheng Institute 
of Technology, 2014, 7(2): 63-65.) 

杨 静 ， 张 楠 男 ， 李 建 ， 等 . 决策 树 算法 的 研究 与 应 用 [J]. 计 
算 机 技术 与 发 展 ，2010，20(2): 114-116, 120. (Yang Jing, 
Zhang Nannan, Li Jian, et al. Research and Application of 


Decision Tree Algorithm [J]. Computer Technology and 
Development, 2010, 20(2): 114-116, 120.) 

洪 家 来 , 丁 明峰 ， 李 星 原 ,等 . 一 种 新 的 决策 树 归纳 学 习 
算法 [J]. 计算 机 学 报 , 1995, 18(6): 470-474. (Hong Jiarong, 
Ding Mingfeng, Li Xingyuan, et al. A New Algorithm of 


Decision Tree Induction [J]. Chinese Journals of Computers, 
1995, 18(6): 470-474.) 

邢 秋 菊 ， 赵 纯 勇 , 高 克昌 . 基于 GIS 的 滑坡 危险 性 逻辑 
归 评 价 研究 [可 . 地 理 与 地 理 信 息 科 学 ，2004，20(3): 49-51. 
(Xing Qiuju, Zhao Chunyong， Gao Kechang. Logical 


回 


Regression Analysis on the Hazard of Landslide Based on 
GIS [J]. Geography and Geo-Information Science, 2004, 
20(3): 49-51.) 

邬 伦 , 刘 瑜 ， 张 晶 ,等 . 地 理 信息 系统 一 一 原理 、 方 法 和 应 
用 [M]. 北京 : 科学 出 版 社 , 2001. (Wu Lun, Liu Yu, Zhang 


201711.01190v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


总 第 271 期 2016 年 第 6 期 


Jing, et al. Geographical Information System 


Method, Application [M]. Beijing: Science Press, 2001.) 
件 冬 梅 : 提出 研究 思路 , 设计 研究 方案 和 技术 路 线 , 论文 撰写 与 
[16] 王春峰 ， 万 海 晕 ， 张 维 .基于 神经 网 络 技术 的 商业 银行 信 Bi 加 


用 风险 评估 [四 . 系统 工程 理论 与 实践 ，1999(9): 24-32. ee 
en 2 任 末 ; 研究 过 程 的 实施 ,数据 清洗 及 数据 分 析 ， 论 文 撰写 。 
(Wang Chunfeng, Wan Haihui, Zhang Wei. Credit Risk 


Assessment in Commercial Banks Using Neural Networks [J]. 利益 冲突 声明 
System Engineering Theory and Practice, 1999(9): 24-32.) 


[17] McClelland J L, Rumelhart D E，Hinton G E. Parallel 件 冬 梅 ， 任 珂 在 本 文 研 究 中 使 用 了 长 春 市 妇 产 医院 的 电子 病历 


Distributed Processing: Explorations in the Microstructure of 


Cognition [M]. Cambridge, MA: MIT Press, 1986. 


数据 。 


A h for Rating th lity of D ion Treatment i 
pproach for Rating the Quality of Depression Treatmen 支撑 数据 [1] 见 期 刊 网 络 版 htttp:/wwwinfotech.ac.cn: 支撑 数据 
Web Pages [Cl]. In: Proceedings of iConference 2014. 


[2-3] 由 作者 自 存 储 , E-mail: moudm@jlu.edu.cn。 
19] Manni D, Schutze H, Ragh P. 信息 检索 导论 [MI]. g y Ce 
ee 信息 检索 导论 [MJ]。 [1] 件 冬 梅 ， 任 珂 . prog_code.rdf, 疾病 预测 模型 实验 环境 、 程 序 
王 斌 译 . 北京 : 电 | 社 ，2010: 105-107，196-200. 
(Manning C D, Schutze H, Raghavan P. Introduction to [2] 件 冬 梅 , 任 珂 . trainingData.csv 妊娠 高 血压 预测 模型 训练 数 
Information Retrieval [M]. Translated by Wang Bin. Beijing: 据 集 
Posts & Tel P 2010: 105-107, 196-200. > ee 
人 a ) [3] 件 冬 梅 ， 任 珂 . testingData.csv. 妊娠 高 血压 预测 模型 测试 数 
[20] 赵 莹 . 配对 四 格 表 资料 的 条 件 Logistic 回归 模型 的 Bayes 分 析 据 集 
[]. 数理 医药 学 杂志 , 2010, 23(5): 505-506. (Zhao Ying. Bayes 
Analysis of Conditional Logistic Model for Paired Fourfold 收 稿 日 期 : 2016-02-19 
Table Data [J]. Journal of Mathematical Medicine, 2010, 23(5): 收 修改 稿 日 期 : 2016-03-26 


505-506.) 


Discovering Knowledge from EKlectronic Medical Records with Three 
Data Mining Algorithms 


Mu Dongmeil Ren Ke’ 
!(School of Public Health, Jilin University, Changchun 130021, China) 
“School of Information Management, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] This empirical study tries to identify risk factors for diseases from the heterogeneous Electronic 
Medical Records (EMR). [Methods] First, we collected EMR with various data structures. Second, we built models to 
predict risk factors for diseases with the help of three algorithms (i.e., decision-making tree, logistic regression and 
neutral network). Finally, We compared and evaluated these models statistically. [Results] The Decision Tree Model 
achieved higher recall and precision rates than the Logistic Regression and Neural Network ones. However, there was 
no significant difference among them. [Limitations] We did not optimize the EMR’s properties. [Conclusions] The 
Decision Tree Model does a better job than the Logistic Regression and Neural Network models in discovering the risk 
factors to predict diseases. The framework of knowledge discovery based on data mining algorithms, provides some 
directions for future research. 


Keywords: Knowledge discovery Electronic medical record Data mining algorithms Prediction model 
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